KI im Sprachtest: Weights & Biases veröffentlicht Leaderboard der Deutsch-Kenntnisse von OpenAI, Anthropic & Co.
- KI-Entwicklerplattform Weights & Biases launcht erstes deutsches interaktives Leaderboard zum Vergleich der meistgenutzten KI-Sprachmodelle (LLM)
- Eisvogel.ai-Plattform bewertet deutsche Sprachfertigkeiten der LLM in verschiedenen Anwendungsbereichen
- Rangliste: Anthropics Claude 3.5 Sonnet ist bester Allrounder, OpenAI glänzt mit Sprachkenntnissen. Außenseiter Command R Plus überrascht
San Francisco/Berlin 12.12.2024 – Weights & Biases, die weltweit führende KI-Entwicklerplattform, legt den ersten Leistungsvergleich der deutschen Sprachkompetenz großer KI-Sprachmodelle vor. Das Leaderboard Eisvogel.ai ermöglicht einen datenbasierten Vergleich der Sprachkenntnisse und Anwendungsfelder unterschiedlicher LLM mit Blick auf die Textverarbeitung in deutscher Sprache. Bislang war die Bewertung der sprachlichen Kompetenzen von LLMs vorrangig an der englischen Sprache orientiert.
Erste robuste Analyse der LLM-Sprachkompetenz im deutschsprachigen Raum
KI-Sprachmodelle etablieren sich derzeit in vielen Anwendungsbereichen. Die Bewertung ihrer Fähigkeiten in verschiedenen Sprachen bleibt dabei eine wichtige Herausforderung. Die Eisvogel.ai-Rangliste bewertet die wichtigsten Einsatzbereiche der gängigen Sprachmodelle. Dazu gehören die allgemeine Wissensprüfung (Measuring Massive Multitask Language Understanding, MMLU) und das mathematische Argumentationsvermögen (Multilingual Grade School Math Benchmark, MGSM). Auf Basis von Holistic Evaluation of Language Models (HELM) entwickelt, ermöglicht das Leaderboard eine robuste und skalierbare Analyse von Modellen anhand multilingualer Benchmarks durch generative Evaluierungen. Ausschlaggebendes Leistungsmaß ist die mittlere Gewinnrate (Mean Win Rate), die den Durchschnitt dieser Leistungsvergleiche über alle Szenarien hinweg bildet. Die Mean Win Rate gibt an, wie oft ein Modell in verschiedenen Szenarien eine höhere Punktzahl als ein anderes Modell erreicht. Das Leaderboard Eisvogel.ai bietet damit eine methodisch zuverlässige und differenzierte Analyse, die sowohl Allrounder-Qualitäten als auch spezifische Stärken der Modelle herausstellt.
Rangliste: Allrounder Claude 3.5 Sonnet knapp vor Sprachtalent GPT-4o
Im Deutsch- und Mathetest liefern die LLM Claude 3.5 Sonnet, Mistral Large 2 und GPT-4o insgesamt die zuverlässigsten Ergebnisse. Anthropics Claude 3.5 Sonnet punktet in allen Anwendungsbereichen insgesamt am höchsten und liegt in der Gesamtwertung damit knapp vor OpenAIs Flaggschiff-Modell GPT-4o. Bei den Sprachkenntnissen liegt GPT-4o mit einer überragenden MMMLU-EM-Leistung von 0,805 dagegen noch vor Anthropics Modell. Die französische KI-Schmiede Mistral punktet dagegen mit der zuverlässigsten mathematischen Argumentationskapazität (MGSM: 0,816). Überraschend solide präsentierte sich auch der Außenseiter Command R Plus, der mit 0,631 im MMMLU-Test und 0,498 in MGSM zwar auf dem letzten Platz landete, als kostenloses Modell aber Anschluss an die Spitzengruppe hält.
Eine ausführliche Dokumentation der in der Rangliste erfassten Kennzahlen sowie Anwendungsbeispiele und Anbietervergleiche ist hier verfügbar: Eisvogel.ai: Evaluating German Language Proficiency
Hans Ramsl, Principal Machine Learning Engineer von Weights & Biases, erklärt: „Unsere Eisvogel.ai-Rangliste bietet den ersten Vergleich für die Bewertung großer Sprachmodelle mit Blick auf deren Anwendungsmöglichkeiten und Zuverlässigkeit im deutschen Sprachraum. Wir werden die Eisvogel.ai-Rangliste kontinuierlich weiterentwickeln, um die dynamische Entwicklung der LLM zu berücksichtigen und auch weitere Modelle und Aufgaben zu integrieren. Nach dem Erfolg von Nejumi.ai (jap. ‘Maus’) für Japanisch und Horangi.ai (kor. ‘Tiger’) für Koreanisch wollen soll das Eisvogel.ai-Board zu einer wertvollen Ressource für alle werden, die deutsche Sprachmodelle entwickeln oder feinabstimmen.“
Über Weights & Biases
Weights & Biases ist die KI-Entwicklerplattform, die die Generative KI-Industrie entscheidend voranbringt. Mehr als 1.300 Unternehmen vertrauen den wegweisenden Lösungen von Weights & Biases, darunter über 30 Foundation Model-Entwickler wie OpenAI, Meta und Cohere. Die Lösungen von Weights & Biases unterstützen End-to-End-MLOps und LLMOps-Workflows, die Feinab-stimmung von KI-Modellen sowie die Entwicklung zuverlässiger KI-Anwendungen. Zu den Kunden zählen global agierende Unternehmen aus unterschiedlichen Branchen wie Aleph Alpha, AstraZeneca, Bayer AG, BMW Group, Canva, NVIDIA, Snowflake, Square, Toyota und Wayve. Das Unternehmen mit Hauptsitz in San Francisco und weiteren internationalen Standorten wird von führenden Investoren unterstützt, darunter Coatue, Felicis Ventures, BOND, Insight Partners, Bloomberg Beta und NVIDIA.